تحولات منطقه

۱۱ مهر ۱۴۰۲ - ۰۹:۱۶

کد خبر: ۹۲۰۸۸۵

آینده هوش مصنوعی با ارتقای چت جی‌پی‌تی به کجا می‌رسد؟

چت جی‌پی‌تی توانایی‌های قدرتمندی را ارائه می‌دهد که فراتر از متن است و شامل مدل‌های چندوجهی خواهد بود.

زمان مطالعه: ۴ دقیقه

به نقل از آی ای اسپکتروم «اوپن‌ای‌آی» (OpenAI) به «چت جی‌پی‌تی» (ChatGPT) توانایی‌های جدید و قدرتمندی را ارائه می‌دهد که فراتر از متن است. این می‌تواند داستان‌های قبل از خواب را با صدای هوش مصنوعی خود تعریف کند، اشیاء را در عکس‌ها شناسایی کند و به ضبط‌های صوتی پاسخ دهد. این قابلیت‌ها نشان‌دهنده بعد بزرگی در هوش مصنوعی است؛ مدل‌های چندوجهی.

«لینکسی جیم فان»، دانشمند ارشد تحقیقات هوش مصنوعی در «انویدیا» (Nvidia) می‌گوید: چندوجهی نسل بعدی این مدل‌های بزرگ است که می‌تواند نه‌ تنها متن، بلکه تصاویر، صدا، ویدئو و حتی سایر روش‌ها را پردازش کند.

چت جی‌پی‌تی قدرت چشم و گوش دریافت می‌کند!

ارتقاء چت جی‌پی‌تی نمونه‌ای قابل‌توجه از یک سیستم هوش مصنوعی چندوجهی است. به جای استفاده از یک مدل هوش مصنوعی که برای کار با یک نوع ورودی طراحی شده، مانند یک مدل زبان بزرگ (LLM) یا مدل گفتار به صدا، چندین مدل با هم کار می‌کنند تا ابزار هوش مصنوعی منسجم‌تری ایجاد کنند. آینده هوش مصنوعی مولد فوق‌العاده است. این برای کارکنان دانش، خلاقان و کاربران نهایی اتفاق خواهد افتاد.

اوپن‌ای‌آی سه ویژگی چندوجهی خاص را ارائه می‌دهد. کاربران می‌توانند ربات چت را با تصاویر یا صدا درخواست کنند و همچنین پاسخ‌ها را با یکی از پنج صدای تولید شده توسط هوش مصنوعی دریافت کنند. ورودی تصویر در همه پلتفرم‌ها در دسترس است، در حالی که صدا به برنامه چت جی‌پی‌تی برای اندروید و آی‌اواس محدود می‌شود.

چت جی‌پی‌تی با متنی پاسخ می‌دهد که بهترین ابزار برای کار و نحوه استفاده از آن را توصیف می‌کند. این ویژگی‌های چندوجهی کاملاً جدید نیستند. جی‌پی‌تی-۴ با درک درخواست‌های تصویر در مارس ۲۰۲۳ راه‌اندازی شد که توسط برخی از شرکای اوپن‌ای‌آی از جمله «بینگ چت» (Bing Chat) مایکروسافت به اجرا درآمد. اما استفاده از این ویژگی‌ها نیازمند دسترسی «ای‌پی‌آی» (API) بود، بنابراین به‌طور کلی به شرکا و توسعه‌دهندگان محفوظ بود.

ویژگی‌های چندوجهی جی‌پی‌تی-۴ در تابستان ۲۰۲۳ در بینگ چت ظاهر شد. اکنون در دسترس همه افرادی هستند که مایل به پرداخت ۲۰ دلار در ماه برای اشتراک «چت جی‌پی‌تی پلاس» (ChatGPT Plus) هستند. ترکیب آن‌ها با رابط دوستانه چت جی‌پی‌تی یک مزیت دیگر است. ورودی تصویر به سادگی باز کردن برنامه و ضربه زدن روی نماد برای گرفتن عکس است.

سادگی؛ قاتل هوش مصنوعی چندوجهی

مدل‌های فعلی هوش مصنوعی برای تصاویر، فیلم‌ها و صدا قابل‌توجه هستند، اما یافتن مدل مناسب برای هر کار می‌تواند زمان‌بر باشد و انتقال داده‌ها بین مدل‌ها کار طاقت‌فرسایی است. هوش مصنوعی چندوجهی این مشکلات را از بین می‌برد.

کاربر می‌تواند با رسانه‌های مختلف از عامل هوش مصنوعی درخواست کند، سپس به‌طور یکپارچه بین تصاویر، متن و پیام‌های صوتی در همان مکالمه جابه‌جا شود.

«کایل شانون»، بنیان‌گذار و مدیرعامل پلتفرم ویدئویی هوش مصنوعی «استوری‌وین» می‌گوید: این به آینده این ابزارها اشاره می‌کند، جایی که می‌توانند تقریباً هر چیزی را که در لحظه می‌خواهیم به ما ارائه دهند.

آینده هوش مصنوعی مولد فوق‌العاده است. این برای کارکنان دانش، خلاقان و کاربران نهایی اتفاق خواهد افتاد. پشتیبانی چت جی‌پی‌تی از تصویر و صدا فقط چشیدن امکاناتی است که در راه است.

فان می‌گوید: در حال حاضر هیچ مدل خوبی برای آن وجود ندارد، در اصل شما می‌توانید داده‌های سه‌بعدی مانند داده‌های بومی دیجیتال را به آن بدهید و می‌تواند تصاویر، ویدئوها و حتی عملکردها را خروجی دهید. من در انویدیا در مورد هوش مصنوعی تحقیق می‌کنم و روباتیک و مدل‌های چندوجهی برای این تلاش‌ها حیاتی هستند.

ساخت هوش مصنوعی چندوجهی با چالش‌های زیادی روبه‌رو است

ورودی تصویر و صدا شروع طبیعی برای قابلیت‌های چندوجهی چت جی‌پی‌تی است. این یک برنامه رو به روی کاربر است و این دو مورد از رایج‌ترین شکل‌های داده‌ای هستند که ممکن است کاربر بخواهد از آن استفاده کند. اما دلیلی وجود ندارد که یک مدل هوش مصنوعی نتواند برای پرداختن به سایر اشکال داده آموزش ببیند، چه صفحه گسترده اکسل، یک مدل سه‌بعدی یا یک عکس با داده‌های عمقی.

این بدان معنا نیست که آسان است. سازمان‌هایی که به دنبال ساخت هوش مصنوعی چندوجهی هستند با چالش‌های زیادی روبه‌رو هستند. بزرگ‌ترین بحث در مورد حجم عظیمی از داده‌های موردنیاز برای آموزش فهرستی از مدل‌های هوش مصنوعی باشد.

فن می‌گوید: من فکر می‌کنم مدل‌های چندوجهی تقریباً مشابه مدل‌های زبان بزرگ کنونی خواهند بود. این سرمایه است و احتمالاً برای چندوجهی حتی بدتر است، زیرا در نظر بگیرید که چه مقدار داده در تصاویر و ویدئوها وجود دارد. به نظر می‌رسد که این به چت جی‌پی‌تی و دیگر استارت‌آپ‌های هوش مصنوعی مانند «آنتروپیک» (Anthropic) که اخیراً قراردادی به ارزش ۴ میلیارد با آمازون منعقد کرده، برتری می‌دهد. اما برای شمارش سازمان‌های کوچک‌تر خیلی زود است.

به گفته فان تحقیقات درزمینهٔ هوش مصنوعی چندوجهی نسبت به تحقیقات درزمینهٔ مدل‌های زبانی از بلوغ کمتری برخوردار است و این فضا را برای محققان برای یافتن تکنیک‌های جدید باز می‌کند.

شانون موافق است و انتظار نوآوری از همه طرف دارد. وی می‌گوید: من فکر می‌کنم همیشه یک آونگ بین ابزارهای عمومی هوش مصنوعی و ابزارهای تخصصی وجود خواهد داشت. آن‌چه تغییر می‌کند این است که اکنون ما امکان ابزارهای واقعاً عمومی را داریم. تخصص می‌تواند یک انتخاب باشد تا یک الزام.

منبع: آنا